U svetu velikih jezičkih modela već smo navikli na opšte formulacije poput „bezbedno, korisno i odgovorno“, ali Anthropic ovde ide korak dalje i pokušava da sistematizuje logiku ponašanja. Ideja „konstitucionalne AI“ je da model ne dobije samo listu zabrana, već da se trenira da obrazlaže sopstvene odluke kroz unapred definisane vrednosti. To je bitna razlika: umesto da AI samo „prepozna“ opasnu temu i automatski zakoči, cilj je da razume zašto je nešto rizično i kako da korisniku ponudi bezbedniji, smislen odgovor.
Dokument, prema opisima portala The Verge, postavlja prioritete kada se vrednosti sudare. Na vrhu je bezbednost, zatim etičnost i poštovanje pravila, pa tek onda korisnost i „spremnost da pomogne“. U prevodu, Claude treba da bude koristan, ali ne po cenu štete, manipulacije ili pružanja pomoći u radnjama koje mogu ugroziti druge. U takav okvir spadaju i čvrste zabrane: od asistencije u nasilju, hakovanju i ozbiljnim ilegalnim aktivnostima, do tema koje bi mogle imati masovne posledice po društvo.
Najzvučniji deo je, međutim, ona reč koja bode oči: „soul“. Anthropic ne tvrdi da Claude ima dušu, niti da je svestan. Poenta je drugačija i pragmatičnija: ako u budućnosti i bude opravdanih razloga da se razmatra moralni status naprednih modela, kako već danas postaviti ponašanje koje neće biti neodgovorno ili okrutno. To je više „osiguranje za sutra“ nego bombastična tvrdnja za danas.


